检索结果

Select

1. 面向武器装备领域的复杂实体识别

游新冬, 葛昊杰, 韩君妹, 李育贤, 吕学强

北京大学学报自然科学版 2022, 58 (3): 391-404. DOI: 10.13209/j.0479-8023.2021.118

摘要（886）

HTML

PDF（pc）（3577KB）（258）

针对武器装备领域复杂实体的特点, 提出一种融合多特征后挂载武器装备领域知识的复杂命名实体识别方法。首先, 使用BERT 模型对武器装备领域数据进行预训练, 得到数据向量, 使用Word2Vec模型学习郑码、五笔、拼音和笔画的上下位特征, 获取特征向量。然后, 将数据向量与特征向量融合, 利用Bi-LSTM模型进行编码, 使用CRF解码得到标签序列。最后, 基于武器装备领域知识, 对标签序列进行复杂实体的触发检测, 完成复杂命名实体识别。使用环球军事网数据作为语料进行实验, 分析不同的特征组合、不同神经网络模型下的识别效果, 并提出适用于评价复杂命名实体识别结果的计算方法。实验结果表明, 提出的挂载领域知识且融合多特征的武器装备复杂命名实体识别方法的F1值达到95.37%, 优于现有方法。

相关文章 | 多维度评价 | 评论（0）

Select

2. 基于分层序列标注的实体关系联合抽取方法

田佳来, 吕学强, 游新冬, 肖刚, 韩君妹

北京大学学报自然科学版 2021, 57 (1): 53-60. DOI: 10.13209/j.0479-8023.2020.083

摘要（1306）

HTML

PDF（pc）（1050KB）（255）

为了提高实体关系联合抽取的效果, 提出一种端到端的联合抽取模型(HSL)。HSL模型采取一种新的标记方案, 将实体和关系的联合抽取转化成序列标注问题, 同时采用分层的序列标注方式来解决三元组重叠问题。实验证明, HSL模型能有效地解决三元组重叠问题, 在军事语料数据集上F1值达到80.84%, 在公开的WebNLG数据集上F1值达到86.4%, 均超过目前主流的三元组抽取模型, 提升了三元组抽取的效果。

相关文章 | 多维度评价 | 评论（0）

Select

3. 足球赛事战报的自动写作研究

王文超, 吕学强, 张凯, 周建设

北京大学学报（自然科学版） 2018, 54 (2): 271-278. DOI: 10.13209/j.0479-8023.2017.156

摘要（975）

HTML （4）

PDF（pc）（542KB）（210）

在分析不同类型体育赛事报道特点的基础上, 首次提出一种以实时数据作为数据源的足球赛事战报自动写作方法。该方法利用历史战报, 对实时数据进行自动标注, 得到训练集, 使用卷积神经网络(CNN)对标注后的实时数据进行建模, 自动识别实时数据中的关键事件, 将关键事件中结构化的信息生成战报风格的自然语言。实验表明, 与其他方法相比, 该方法写作效果更好, 内容更加详实, 可以很方便地扩展到其他赛事的自动写作。

相关文章 | 多维度评价 | 评论（0）

Select

4. NBA赛事新闻的自动写作研究

陈玉敬, 吕学强, 周建设, 李宁

北京大学学报自然科学版 2017, 53 (2): 211-218. DOI: 10.13209/j.0479-8023.2017.034

摘要（1184）

HTML （26）

PDF（pc）（522KB）（860）

基于 NBA 赛事新闻和文字直播的特点, 提出一种 NBA 赛事新闻自动写作方法。首先根据两支球队的比分差, 构建比分差函数, 并提出基于比分差函数性质的数据分片算法和数据合成算法; 然后对数据片进行分类处理, 根据数据片的类别以及历史 NBA 赛事的新闻报道, 构建 NBA 赛事报道模板库, 并以球队和球员的表现为中心, 将数据片的信息填入已构建好的模板, 得到一篇自动生成的 NBA 赛事新闻稿。提出 4 种指标衡量 NBA 赛事新闻自动写作的质量。实验表明, 该方法有效、可行, 并且写作速度较快, 能够对赛事新闻撰写者提供帮助。

图表 | 参考文献 | 相关文章 | 多维度评价 | 评论（0）

Select

5. 基于排序方法的汉语句际关系树自动分析

吴云芳, 万富强, 徐艺峰, 吕学强

北京大学学报（自然科学版） 2016, 52 (1): 65-74. DOI: 10.13209/j.0479-8023.2016.014

摘要（1031）

HTML

PDF（pc）（450KB）（848）

提出一种自动分析汉语小句级句际关系树的新方法。在修辞结构理论体系下, 构建一个汉语句际关系标注语料库。不同于传统的只关心相邻两个单元的方法, 提出一种类排序模型(SVM-R), 自动构建汉语句际关系的树结构, 旨在把握相邻3 个单元之间的关联强度。实验结果表明, 所提出的SVM-R模型对句际关系树的分析显著优于传统方法。最后提出并验证了丰富的、适合于汉语句际关系分析的语言特征。

相关文章 | 多维度评价 | 评论（0）

Select

6. 利用URL-Key进行查询分类

李雪伟,吕学强,董志安,刘克会

北京大学学报（自然科学版）

Select

7. 基于互联网的术语定义辨析

吴瑞红,吕学强

北京大学学报（自然科学版）

摘要（1048）

PDF（pc）（535KB）（288）

针对一个术语的多条候选定义, 首次提出术语定义辨析模型并给出一种基于互联网的求解方法。该方法从百度百科和百度搜索构建参考释义, 总结术语及其定义来源语料中的术语定义模板, 根据参考释义和定义的模板从待辨析定义中选出最优定义。实验选取中国知网概念知识元库中部分领域的术语在学术文献和工具书中的定义作为待辨析对象, 用所提出的模型和方法进行辨析实验, 结果表明, 该方法辨析的准确率为96.1%, 有很好的辨析效果。

相关文章 | 多维度评价 | 评论（0）

Select

8. 汉语并列关系的识别研究

郑略省,吕学强,刘坤,林进

北京大学学报（自然科学版）

摘要（926）

PDF（pc）（452KB）（487）

针对汉语并列关系的标注方式, 提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息, 进行角色标注, 在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较, 并列关系的召回率和正确率分别提高了9.1%和13.8%。

相关文章 | 多维度评价 | 评论（0）

Select

9. 汉语并列复句的自动识别方法

吴云芳,石静,万富强,吕学强

北京大学学报（自然科学版）

摘要（743）

PDF（pc）（494KB）（419）

针对汉语句际关系中分布最广泛的并列复句, 提出一种自动识别的方法。通过对句子语义相似度和结构相似度的计算, 使用基于词义的句子相似度计算、最大公共子串、最大谓词周边匹配长度、加重特定词语复现等方法, 在广义并列关系上进行评测。最后将其中3种方法进行集成, 并取得了较为理想的效果。

相关文章 | 多维度评价 | 评论（0）